Learning from Environmental Data: Methods for Analysis of Forest Nutrition Time Series
نویسنده
چکیده
Data analysis methods play an important role in increasing our knowledge of the environment as the amount of data measured from the environment increases. This thesis fits under the scope of environmental informatics and environmental statistics. They are fields, in which data analysis methods are developed and applied for the analysis of environmental data. The environmental data studied in this thesis are time series of nutrient concentration measurements of pine and spruce needles. In addition, there are data of laboratory quality and related environmental factors, such as the weather and atmospheric depositions. The most important methods used for the analysis of the data are based on the self-organizing map and linear regression models. First, a new clustering algorithm of the self-organizing map is proposed. It is found to provide better results than two other methods for clustering of the self-organizing map. The algorithm is used to divide the nutrient concentration data into clusters, and the result is evaluated by environmental scientists. Based on the clustering, the temporal development of the forest nutrition is modeled and the effect of nitrogen and sulfur deposition on the foliar mineral composition is assessed. Second, regression models are used for studying how much environmental factors and properties of the needles affect the changes in the nutrient concentrations of the needles between their first and second year of existence. The aim is to build understandable models with good prediction capabilities. Sparse regression models are found to outperform more traditional regression models in this task. Third, fusion of laboratory quality data from different sources is performed to estimate the precisions of the analytical methods. Weighted regression models are used to quantify how much the precision of observations can affect the time needed to detect a trend in environmental time series. The results of power analysis show that improving the quality may decrease the time needed for detection of the trend by many years. The data analysis methods developed and applied in this thesis are found to produce results which are understandable for the environmental scientists. They are, therefore, useful for studying the condition of the environment and evaluating the possible causes for changes in it. Sulkava, M. (2008): Ympäristödatasta oppiminen: menetelmiä metsän ravintoaikasarjojen analyysiin. Tohtorin väitöskirja, Teknillinen korkeakoulu, Dissertations in Computer and Information Science, raportti D24, Espoo, Suomi. Avainsanat: data-analyysi, tiedonlouhinta, aikasarja, metsä, neulasto, ravinne, ympäristöinformatiikka, ympäristötilastotiede, ympäristönseuranta, ryvästys, itseorganisoiva kartta, harva regressio, painotettu regressio. TIIVISTELMÄ Data-analyysimenetelmät ovat tärkeässä osassa ympäristöä koskevan tiedon kartuttamisessa, kun ympäristöstä mitatun datan määrä kasvaa. Tämä väitöskirja kuuluu ympäristöinformatiikan ja ympäristötilastotieteen aloihin. Näillä tieteenaloilla data-analyysimenetelmiä kehitetään ja sovelletaan ympäristödatan analysointiin. Tässä väitöskirjassa tutkittu ympäristödata on aikasarjoja männynja kuusenneulasten ravinnepitoisuusmittauksista. Lisäksi väitöskirjassa on käytetty laboratorioiden laadusta sekä aiheeseen liittyvistä ympäristötekijöistä kuten säästä ja laskeumista mitattua dataa. Tärkeimmät datan analysoinnissa käytetyt menetelmät perustuvat itseorganisoivaan karttaan ja lineaarisiin regressiomalleihin. Ensiksi esitellään uusi itseorganisoivan kartan ryvästysalgoritmi. Sen havaitaan tuottavan parempia tuloksia kuin kaksi muuta itseorganisoivan kartan ryvästysmenelmää. Algoritmia käytetään jakamaan ravinnepitoisuusdata ryppäisiin. Tämän jälkeen ympäristötieteilijät arvioivat tulosta. Ryvästyksen pohjalta mallitetaan metsien ravinteiden ajallista kehitystä ja arvioidaan typpija rikkilaskeuman vaikutusta neulaston kivennäiskoostumukseen. Toiseksi regressiomalleja käytetään tutkimaan, kuinka paljon ympäristötekijät ja neulasten ominaisuudet vaikuttavat muutoksiin neulasten ravinnepitoisuuksissa niiden ensimmäisen ja toisen olemassaolovuoden välillä. Tavoitteena on rakentaa ymmärrettäviä malleja, joiden ennustuskyky on hyvä. Harvojen regressiomallien todetaan suoriutuvan tästä tehtävästä perinteisempiä regressiomalleja paremmin. Kolmanneksi eri lähteistä peräisin olevaa laboratorioiden laatua mittaavaa dataa yhdistetään, ja sen avulla lasketaan analyysimenetelmien tarkkuudet. Painotettuja regressiomalleja käytetään määrittämään, kuinka paljon laboratorioiden laatu voi vaikuttaa trendin havaitsemiseen ympäristöaikasarjoista. Voima-analyysin tulokset osoittavat, että laadun parantaminen voi vähentää havaitsemiseen tarvittavaa aikaa useilla vuosilla. Tässä väitöskirjassa kehitettyjen ja käytettyjen data-analyysimenetelmien todetaan tuottavan tuloksia, jotka ovat ymmärrettäviä ympäristötieteilijöille. Ne ovat siksi hyödyllisiä tutkittaessa ympäristön kuntoa ja arvioitaessa sen muutosten mahdollisia syitä.
منابع مشابه
Stable Isotope Application in Animal Nutrition Science
The application of stable isotope analysis (SIA) has become a standard scientific approach in Agricultural and Ecological researches and, more in general, in several disciplines such as biology, botany, zoology, organic chemistry, climatology, and nutrition. The main objectives of this paper are (1) to provide a simple definition of stable isotopes and (2) to illustrate analytical measurement m...
متن کاملMachine learning algorithms for time series in financial markets
This research is related to the usefulness of different machine learning methods in forecasting time series on financial markets. The main issue in this field is that economic managers and scientific society are still longing for more accurate forecasting algorithms. Fulfilling this request leads to an increase in forecasting quality and, therefore, more profitability and efficiency. In this pa...
متن کاملTime series forecasting of Bitcoin price based on ARIMA and machine learning approaches
Bitcoin as the current leader in cryptocurrencies is a new asset class receiving significant attention in the financial and investment community and presents an interesting time series prediction problem. In this paper, some forecasting models based on classical like ARIMA and machine learning approaches including Kriging, Artificial Neural Network (ANN), Bayesian method, Support Vector Machine...
متن کاملSeismic Data Forecasting: A Sequence Prediction or a Sequence Recognition Task
In this paper, we have tried to predict earthquake events in a cluster of seismic data on pacific ring of fire, using multivariate adaptive regression splines (MARS). The model is employed as either a predictor for a sequence prediction task, or a binary classifier for a sequence recognition problem, which could alternatively help to predict an event. Here, we explain that sequence prediction/r...
متن کاملAnalysis of landings and environmental variables time series from the Caspian Sea
In the present study, the time series encompassing the years 1950-2011 of commercial landings from the Caspian Sea were analyzed using min/max autocorrelation factor analysis (MAFA) and dynamic factor analysis (DFA). These aim was to identify trends and explore the relationships between the response variables (annual landings of 10 species/groups such as kilkas, kutum, common carp, pike perch, ...
متن کاملEnsemble Kernel Learning Model for Prediction of Time Series Based on the Support Vector Regression and Meta Heuristic Search
In this paper, a method for predicting time series is presented. Time series prediction is a process which predicted future system values based on information obtained from past and present data points. Time series prediction models are widely used in various fields of engineering, economics, etc. The main purpose of using different models for time series prediction is to make the forecast with...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
عنوان ژورنال:
دوره شماره
صفحات -
تاریخ انتشار 2008